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Resumen 


Campos-Aranda, D. E. (julio-agosto, 2014). Ampliación 
de registros de volumen escurrido anual con base en 
información regional y regresión de tipo Ridge. Tecnología y 
Ciencias del Agua, 5(4), 173-185. 


En general, la planeación, diseño y manejo de las obras de 
infraestructura hidráulica se realiza con base en los registros 
históricos disponibles de crecientes, escurrimientos y lluvias 
anuales. Conforme tales registros abarcan más años, sus 
estimaciones hidrológicas tienen una mayor exactitud. 
Por lo anterior, siempre es necesario ampliar los registros 
cortos (Y), por ejemplo a través de la regresión lineal múltiple 
(RLM), la cual utiliza la información regional disponible. El 
establecimiento de una RLM tiene varias dificultades, quizá la 
más importante en el transporte de información hidrológica 
sea la presencia de correlación entre los registros auxiliares 
o variables predictivas (X,), lo cual da origen a un problema 
de multicolinealidad. En este trabajo se expone con detalle el 
diagnóstico cuantitativo de tal problema por medio de los 
factores de inflación de la varianza y de los eigenvalores de 
la matriz X' - X. También se describe ampliamente la RLM 
de tipo Ridge o sesgada como estrategia para minimizar los 
efectos de la multicolinealidad, buscando su parámetro de 
sesgo con base en la traza Ridge. Se detalla una aplicación 
numérica para ampliar el registro de volúmenes escurridos 
anuales en la estación hidrométrica Santa Isabel de la cuenca 
del Alto Río Grijalva, utilizando cuatro registros amplios 
cercanos. Por último se formulan las conclusiones, las cuales 
destacan las ventajas del uso de la RLM de tipo Ridge. 


Palabras clave: multicolinealidad, factores de inflación de la 
varianza, eigenvalores, eigenvectores, alto río Grijalva. 


Introducción 


En general, la planeación, diseño, operación y 
revisión de las obras hidráulicas se realiza con 
base en los registros históricos disponibles de 
datos hidrológicos, principalmente crecientes, 
escurrimientos y lluvias anuales. Al contar 
sólo con registros cortos, la confianza en sus 
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The planning, design and management of water infrastructure 
are typically based on available historical records of annual floods, 
runoff and rainfall. The more years covered by these records the 
more accurate the hydrological estimates. Therefore, it is always 
necessary to expand short records (Y), for example, through multiple 
linear regression (MER), which uses available regional information. 
Establishing a MLR has several difficulties, perhaps the most 
important regarding the transport of hydrological information is the 
presence of correlation between the auxiliary or predictor variables 
(X), which gives rise to a problem of multicollinearity. In this 
work, the quantitative evaluation of multicollinearity is presented 
in detail through variance inflation factors and eigenvalues for the 
X”- X matrix. In addition, the biased or Ridge MER is described 
extensively as a strategy to minimize the effects of multicollinearity, 
seeking its biasing parameter based on the Ridge trace. A numerical 
application is presented in detail, which expands the annual runoff 
volume records in the Santa Isabel gauging station in the upper 
Grijalva River using four broad records nearby. Lastly, several 
conclusions are formulated which highlight the advantages of using 
the Ridge MLR. 
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estimaciones estadísticas es baja y por ello se 
debe buscar información adicional y técnicas 
de ampliación de las series disponibles (Salas 
et al., 2008). Para el caso específico de los 
escurrimientos anuales, la fuente más común 
de datos adicionales son los registros largos 
de las estaciones hidrométricas cercanas y la 
técnica estadística más utilizada para el llamado 
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transporte regional de información hidrológica es la 
regresión lineal múltiple (RLM). 

Bajo este enfoque, el registro corto (Y) debe 
tener un periodo común de información con las 
series largas (X, regresores) y guardar una cierta 
dependencia o correlación con ellas. Obtenida 
y validada su ecuación, se pueden obtener las 
estimaciones que amplían el registro corto, 
con base en los valores observados en los 
regresores. Esta técnica estadística implica una 
complejidad real tan sólo en los tres aspectos 
siguientes (Ryan, 1998): (1) selección de cuántos 
y cuáles registros amplios e independientes 
utilizar; (2) interpretación de los resultados, en 
especial de los coeficientes de la regresión (B), 
y (3) determinación de cuándo un método de 
ajuste, alternativo al de mínimos cuadrados de 
los residuos, debe ser utilizado. 

Como el registro corto debe estar correla- 
cionado con los auxiliares o circunvecinos, 
resulta lógico esperar que también éstos 
muestren cierta dependencia entre sí, pues 
además de ser cercanos guardan correlación 
con la variable dependiente. La correlación 
entre los regresores implica que alguna parte 
de la información estadística contenida en 
cada uno también está presente en alguna 
de las otras ¡ — 1 variables independientes 
(Haan, 1977). Esta situación genera un 
problema de multicolinealidad debido a la 
semejanza o correlación existente entre los 
registros involucrados. Tal problema se debe 
diagnosticar y resolver, por ejemplo, a través 
de la regresión tipo Ridge (Montgomery et al., 
1998; 2002). 

Los tres objetivos básicos de este trabajo 
son: (1) describir la teoría estadística rela- 
tiva a la RLM y su ajuste por mínimos 
cuadrados de los residuos; (2) explicar los 
conceptos y el diagnóstico cuantitativo de la 
multicolinealidad, y (3) exponer y aplicar la 
RLM de tipo Ridge o sesgada, como método 
eficiente para contrarrestar la dependencia 
lineal entre los regresores. Se realiza una 
aplicación numérica con cinco estaciones 
hidrométricas de la cuenca del Alto Río Grijalva 
para ampliar el registro corto de volúmenes 
escurridos anuales en la estación Santa Isabel. 


Se comparan los resultados con los obtenidos 
previamente, mediante el enfoque de selección 
exhaustiva de variables predictivas. 


Resumen de la teoría operativa 
Regresión Lineal Múltiple (RLM) y su ajuste 


Con frecuencia se puede establecer una relación 
de tipo lineal entre la variable dependiente (Y) 
y varias (p) independientes X,, X,..., X,, que 
es la generalización o extensión natural de la 
regresión lineal simple; su expresión es (Ryan, 
1998): 


Y= B +84, +P,,+P,X, +8, X, +€ (1) 


Debido a esto último, los principios que 
rigen a la regresión lineal se aplican a la RLM; 
por ejemplo, que tanto Y como las X, estén 
normalmente distribuidas, y que los errores e 
sean independientes también con distribución 
normal de media cero y misma varianza (0?) 
para cada X.. Por lo general, la estimación de 
los coeficientes de la regresión (f,) se realiza 
mediante el llamado ajuste de mínimos 
cuadrados de los residuos. Tal solución 
matricial para la RLM, en el caso general de 
p variables independientes O regresores y n 
observaciones o datos de Y, X,, X,,..., X, es la 
siguiente (Ryan, 1998): 


Y=X-B+e (2) 
Siendo: 
Ya 1 X, X pl 
Y - Y, ' X= 1 X, X,, X,2 ] 
Ya 1 ea Ao 25 
Bo 
B, * 
BB | e” 
: €, 
B, 
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El planteamiento de esta solución implica 
que la sumatoria de uno a n de los residuos al 
cuadrado debe ser minimizada, es decir que: 


n 


= (Y, =P, -B,X, PX), —-B,X, ) =0 (3) 


i=l 


Entonces, diferenciando el lado derecho de 
la ecuación anterior con respecto a By By Bar---, 
P, por separado, se originan las ecuaciones 
llamadas normales, función de los parámetros 
desconocidos. En notación matricial, estas 
ecuaciones son: 


pU-x):B=X'-Y (4) 
cuya solución es: 
B=(-x)*-(x-Y) (5) 


en la cual X” es la matriz transpuesta de X y 
QC - Xx)” indica la matriz inversa de X” + X. 


Coeficiente de determinación múltiple 


Designado por R? es probablemente el esta- 
dístico más utilizado para medir lo adecuado 
de un modelo de regresión; indica cuánta de la 
varianza de Y la explica el modelo; por ello su 
expresión es (Hirsch et al., 1993): 


en la cual Y, es la estimación de la variable Y, a 
través de la ecuación de regresión; por ello SC,,. 
es la suma de cuadrados de los residuos y SC, 
es la varianza total de la variable dependiente, 
cuya media aritmética es Y. 


Escalamiento de longitud unitaria de los 
datos 


Sustraer a cada variable independiente o 
regresor su media aritmética se conoce como 
centrado de los datos y tiene como ventaja 
fundamental que las matrices X involucradas 
de n renglones ahora tienen p columnas, ya que 
la ecuación de RLM es: 


Y -Y=B,(X, -X,)+8,(X, -X,) 
+-+B,(X, -X,) (7) 


cuyo reacomodo para obtener la ecuación (1) 
implica que: 


(8) 


El escalamiento de longitud unitaria 
implica, además del centrado, la división entre 
la raíz cuadrada de la varianza (Montgomery et 
al., 2002), por lo cual: 


X -X, . , 
Es = Ha cont=1,23,00H,) =123/3p- 19) 
' 
-Y ] 
Y, = 47 con ¡= 1,2,3,..., n (10) 
Y 
Donde: 
n 50 
S= YX, -X)) (11) 
yA il 


El escalamiento de longitud unitaria 
produce, en relación con la ecuación (4), que 
la matriz E” - E sea una matriz de correlación 
simple entre los regresores X; además, la matriz 
E'- Y es ahora una matriz de correlación simple 
entre cada regresor X, y la variable dependiente 
Y. Este escalamiento y el normal conducen 
a coeficientes estandarizados de regresión, cuya 
comparación entre ellos define la importancia 
de cada regresor. 


Tecnología 
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Otro escalamiento que se requiere con 
frecuencia está asociado con la estabilidad 
numérica de la matriz inversa de E” - E, pues 
es común obtenerla planteando esta igualdad 
A + A“ = [ al transformar la matriz A en 
la matriz identidad 1 y realizar las mismas 
operaciones en l, ésta se convierte en la 
matriz A” buscada. Cuando la matriz A tiene 
elementos muy grandes, su inversa presentará 
elementos muy pequeños y entonces los 
errores por redondeo se vuelven importantes. 
En tales casos conviene dividir (escalar) todos 
los datos entre una cantidad fija o cociente 
reductor (COR) antes de aplicar la ecuación (5) 
y después los resultados de la ecuación (1) se 
multiplican por el COR. 


Multicolinealidad: definición y soluciones 


Como ya se indicó, en el caso de una ampliación 
de un registro hidrológico con base en la 
información regional disponible, el conjunto 
de datos siempre mostrará un cierto grado de 
multicolinealidad, a menos que las columnas de 
la matriz X sean ortogonales, es decir que X” - X 
sea una matriz diagonal, lo cual sólo sucederá 
en un experimento diseñado (Montgomery et 
al., 1998; 2002). Siendo X; la j-ésima columna 
de la matriz X, la multicolinealidad se define 
de manera formal como la dependencia lineal 
entre tales columnas, es decir, que existe un 
conjunto de constantes t,, £,,..., bt, no todas cero, 
tales que: 


P 
St, -X,=0 (13) 
j=l 


Si la ecuación anterior es exactamente 
válida para un subconjunto de las columnas de 
X, el rango de la matriz X” - X es menor que p y 
entonces no existe (X” - X). Cuando la ecuación 
(13) es válida, sólo aproximadamente existe 
multicolinealidad; es decir, que la matriz X' - X 
presenta un cierto grado de deterioramiento. 
En general, cuando se aplica el método de 
mínimos cuadrados de los residuos a datos que 
presentan multicolinealidad, la estimación de 


los coeficientes de regresión no es confiable, ya 
que su valor absoluto está exagerado y además 
es inestable. 

Las técnicas básicas para combatir la 
multicolinealidad son las tres siguientes (Ryan, 
1998; Montgomery et al., 1998): 


1. Obtener más datos, lo cual puede no ser 
posible y además es probable que los datos 
nuevos reflejen el comportamiento de los 
anteriores. 

2. Re-especificar el modelo, redefiniendo los 
regresores. Por ejemplo, si X,, X, y X, 
son linealmente dependientes, se puede 
adoptar una función de ellos del tipo 
X=(X,+X,)/X,0 bien X=X + X,*X,, que 
preserva el contenido de la información de 
los regresores originales, pero que reduce 
el deterioramiento de los datos debido a 
la multicolinealidad. Otro método de re- 
especificación muy efectivo consiste en 
la eliminación de una o más variables o 
regresores, esto de manera definitiva redu- 
ce la multicolinealidad, pero puede dañar 
notablemente la capacidad predictiva del 
modelo. 

3. Obtener estimaciones sesgadas, como la 
RLM de tipo Ridge. 


Diagnóstico cuantitativo de la 
multicolinealidad con base en (E”- EY” 


La manera más simple de descubrir la multi- 
colinealidad es a través de la inspección de 
la matriz E” - E, cuyos elementos fuera de 
la diagonal principal corresponden a los 
coeficientes de correlación simple entre pares 
de regresores; entonces, si existen valores 
absolutos mayores de 0.80, se tiene dependencia 
entre tal pareja. Este método sólo detecta la 
multicolinealidad, pero no la cuantifica; en 
cambio, cuando los factores de inflación de la 
varianza VIF de Variance Inflation Factor son 
mayores que 10 implican que los coeficientes 
de regresión obtenidos con la ecuación (5) no 
son confiables debido a la multicolinealidad. 
La expresión de los VIF es (Montgomery et al., 
1998; 2002): 
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1 


E 


VIE, =C,,= 


donde Rres el coeficiente de determinación que 
resulta de la RLM entre el regresor X, como 
variable dependiente y el resto p — 1 como 
regresores. Los VIF, corresponden a la diagonal 
principal de la matriz inversa de E” - E. 


Diagnóstico cuantitativo de la 
multicolinealidad con base en los eigenvalores 
de E”- E 


Los eigenvalores de la matriz E” - E se designan 
por A, Ay My».., My también se conocen como 
valores propios y corresponden a las raíces 
de la ecuación característica ¡A-2:1]=0 de la 
matriz A. Se obtienen con procedimientos de 
métodos numéricos, por ejemplo, el método de 
potencias (Carnahan et al., 1969). Si existe una 
o más dependencias casi lineales en los datos, 
uno o más de los eigenvalores serán pequeños. 
El número de condición k de la matriz E' - E se 
define como (Montgomery et al., 1998; 2002): 


(15) 


y representa el espectro de variación de los 
eigenvalores de la matriz E” - E. En general, 
cuando k es menor que 100, prácticamente no 
existen problemas de multicolinealidad; cuan- 
do varía de 100 a 1 000 se tiene multicolineali- 
dad de moderada a fuerte, y cuando excede de 
1000 seguramente se tendrán graves problemas 
asociados con ésta. Los índices de condición k, de 
la matriz E' - E son: 


con ¡=1,12,3,..., p (16) 

Los valores de k, definen el número y 
magnitud de las dependencias lineales que 
existen en los datos. Además, los eigenvectores 
asociados con cada eigenvalor permiten esta- 
blecer numéricamente la dependencia lineal 
que existe entre los regresores, como se 
mostrará en la aplicación numérica. 


La regresión Ridge 


El método de mínimos cuadrados de los resi- 
duos asegura que la estimación B (ecuación 
(5)) tenga 
multicolinealidad genera 


varianza mínima, pero la 


varianza muy 
grande, por lo cual sus estimaciones son 
inestables. Suponiendo que se puede obtener 
un estimador sesgado p que tenga mucho 
menor varianza, entonces se puede aceptar una 
cantidad pequeña de sesgo en B', de manera 
que el error medio cuadrático de B' sea menor 
que la varianza del estimador insesgado B. La 
menor varianza del estimador sesgado implica 
que B' es un estimador más estable de f que el 
insesgado b. 

Se han desarrollado varios procedimientos 
para obtener estimadores sesgados de los 
coeficientes de regresión f. Uno de ellos es la 
regresión Ridge o de cresta, que fue propuesta a 
comienzos de la década de los años setenta por 
Hoerl y Kennard (1970), y que debe su nombre 
a la semejanza de sus operaciones matemáticas 
con el análisis Ridge empleado para describir 
el comportamiento de superficies de respuesta 
de segundo orden. El estimador Ridge Ba se 
obtiene resolviendo una versión ligeramen- 
te modificada de las ecuaciones normales, 
expuestas como ecuaciones (4) y (5); ésta 
es (Montgomery et al., 1998; 2002): 


(E-E+k-1)-$, =E-Y (17) 


por lo cual: 
B, =(E-E+k-1)"-(E-Y) (18) 
en las expresiones anteriores, la constante 


k > 
selecciona durante el proceso de aplicación de 


0, denominada parámetro de sesgo, se 


la regresión Ridge. En realidad, el estimador 
Ridge es del 
estimador de mínimos cuadrados de los 


una transformación lineal 


residuos, cuyo sesgo crece al aumentar k, pero 
al mismo tiempo disminuye su varianza. Con 
la regresión Ridge se obtiene una estimación 
estable de sus coeficientes, a cambio de no ser 
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el mejor ajuste a los datos. Debido a esto último 
se cree, pues no hay demostración matemática 
concluyente, que conduce a ecuaciones de 
regresión que funcionan mejor para predecir 
observaciones futuras, en comparación con la 
de mínimos cuadrados de los residuos. 

Hoerl y Kennard (1970) sugirieron que 
un valor adecuado de k puede estimarse por 
inspección de la traza Ridge, que es una gráfica 
de las magnitudes de Ba dibujados en las 
ordenadas, contra sus respectivos valores de 
k en las abscisas. Los valores de k suelen estar 
en intervalo de 0 a 1. Si la multicolinealidad es 
grave, los coeficientes Ba variarán mucho, pero 
en un cierto valor de k se estabilizan. La idea 
fundamental es seleccionar el valor de k más 
pequeño, donde los Ba ya sean estables. Con 
ello es posible que se obtenga una ecuación de 
regresión con menor error medio cuadrático 
que el correspondiente a mínimos cuadrados. 


Aplicación numérica 
Datos en el Alto Río Grijalva 


En la figura 1 se muestra la ubicación, dentro 
de la Región Hidrológica 30 (Ríos Grijalva y 
Usumacinta), de cinco cuencas pertenecientes 
a las estaciones hidrométricas Santa Isabel, 
La Escalera, El Boquerón IL, Las Flores II y 
Santa María, cuyos datos generales se tienen 
en el cuadro 1. El planteamiento general de 
esta aplicación numérica consiste en ampliar 
el registro corto de Santa Isabel a través de 
RLM de tipo Ridge, empleando los otros 
cuatro registros largos. Esta estimación ya 
fue realizada (Campos, 2012), con base en el 
método de selección de variables predictivas. 
Campos (2012) recopiló en el sistema 
BANDAS (IMTA, 2002) los datos disponibles 
en las estaciones citadas, correspondientes 
al volumen escurrido anual en millones de 
metros cúbicos (Mm); también estimó valores 
mensuales perdidos para los años incompletos 
y dedujo las magnitudes anuales faltantes en 
el periodo común, definido de 1956 a 1973. 
Además, estableció el periodo de ampliación 
de 1974 a 1994. Tales datos se presentan en 


el cuadro 2. Finalmente, probó que los datos 
no tuvieran componentes determinísticas y 
verificó su procedencia de una distribución 
normal, con base en el test de Shapiro y Wilk 
(Shapiro, 1998). 


Diagnóstico de la multicolinealidad 


Las matrices E' - E, E' - Y y (E' - E)* obtenidas 
para los datos del cuadro 1, procesados lógica- 
mente con escalamiento unitario y subrutinas 
de multiplicación e inversión de matrices ela- 
boradas ex professo son: 


X, X, X, X, 
l 1000000 0.706983 0.522109 0.409604 | % 
EE =| 0.706983 1.000000 0.867273 0.759131 | X, 
0.522109 0.867273 1.000000 0.911521 | X, 
| 0.409604 0.759131 0.911521 1.000000 | x, 
lo.7a2823 | % 
X 
Ey | 0.651777 | X 
0.576905 | X, 
| 0.365996 | x, 
2.175362 -2.174041 0340291  0.449162 
(E-EJ"=| 2174041 6304874 -4.623234 — 0.318447 
0.340291 -4.623233  10.405540 -6.114622 
0.449162  0.318447 -6.114621  6.147887 


La inspección de la matriz E” - E muestra 
que únicamente existen dos correlaciones 
importantes: la mayor y = 0.9115), entre X, 
y X, y la menor (r,, = 0.8673), entre X, y X,. 
Por lo anterior, se detecta un problema de 
multicolinealidad en los datos, pero quizás 
sea aceptable o moderada. En relación con el 
vector E' - Y, ninguna correlación es importante 
y éstas disminuyen conforme las estaciones 
hidrométricas están más alejadas de la estación 
Santa Isabel (ver figura 1). 

El diagnóstico cuantitativo de la multico- 
linealidad se tiene en el cuadro 3, cuyo primer 
renglón de resultados corresponde a los valores 
de los factores de inflación de la varianza (VIF) 
y son los elementos de la diagonal principal de 
la matriz inversa de E' - E. Como la magnitud 
mayor de los VIF, escasamente excede de 10, 
se encuentra multicolinealidad aceptable. 
Por otra parte, como ninguno de los índices 
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Figura 1. Localización geográfica de las cinco estaciones hidrométricas procesadas del Alto Río Grijalva. 


Cuadro 1. Características generales de las estaciones hidrométricas utilizadas de la cuenca del Alto Río Grijalva. 


Latitud Lon Área de Registro 
Nombre Clave* Río aforado 5 cuenca E 5 
N wWG (años faltantes) 
(km?) 
Santa Isabel 30053 El Dorado 169 16' 929 53” 1873 1956-1973 (0) 
La Escalera 30041 Santo Domingo 16 32 E 1 808 1954-2002 (4) 
El Boquerón II 30020 Suchiapa 16? 40' 93% 09 1870 1949-2002 (6) 
Las Flores II 30072 Zoyatenco 16* 42* 937 33" ll 1962-2002 (5) 
Santa María 30071 Encajonado 16% 57" 937 46' 1958 1962-2001(13) 
*Según sistema BANDAS. 
de condición (x,) excede de 100, entonces los 0.0629 - X, +0.3877 : X, -0.7862 : X, 
roblemas asociados con la multicolinealidad 
P +0.4771-X, =0 (19) 


no serán serios, lo cual ratifica la conclusión 


anterior. 


considerando que el coeficiente de X, es cercano 
Con base en los elementos del cuarto 


eigenvector, que corresponde al menor de los a cero se obtiene: 
eigenvalores, se establece la siguiente ecuación 


(13), relativa a la multicolinealidad presente: 0.3877 -X, +0.4771-X, =0.7862-X, (20) 
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Cuadro 2. Volúmenes escurridos anuales (Mm?) y sus parámetros estadísticos en las estaciones hidrométricas indicadas 
de la cuenca del Alto Río Grijalva. 


Núm Año Santa Isabel (Y) La Escalera (X.) El Boquerón II (X,) Las Flores II (X,) Santa María (X,) 

1 1956 1 113.119 524.303 700.426 617.200 1 348.100 

2 1957 846.957 343.245 327.830 195.700 829.200 

3 1958 1 134.394 759.834 576.979 477.500 1176.100 

4 1959 748.138 538.022 456.217 340.900 1 008.000 

5 1960 1 259.572 831.507 544.870 441.200 1 131.400 

6 1961 876.884 555.208 340.309 209.800 846.500 

7 1 345.812 700.956 594.985 528.749 780.873 

8 1 151.548 793.521 519.857 509.515 1 062.852 

9 1 103.385 809.059 572.255 428.682 1 040.491 

10 1 227.758 619.464 424.201 311.510 926.283 

11 671.762 612.066 543.392 400.731 1 234.455 

12 629.364 302.969 337.493 319.296 820.282 

13 863.049 443.917 327.265 245.051 886.820 

14 1 071.681 872.190 702.579 654.717 1 475.765 

15 1 182.934 636.918 674.119 971.609 2 071.694 

16 1 131.230 737.992 707.531 499.456 1156.651 

17 627.775 313.800 287.889 244.434 823.366 

18 1 183.812 701.963 800.585 800.408 1714.570 

1 - 270.474 431.411 447.160 1 185.743 

2 285.090 429.059 258.044 1 006.232 

3 219.347 280.568 127.823 852.063 

4 272.813 253.843 95.508 710.200 

5 563.517 609.759 288.524 1 018.654 

6 286.202 371.625 318.484 1 124.668 

7 590.997 552.401 1 312.039 2 438.163 

8 844.403 729.838 659.665 mies 

9 662.449 442.376 190.252 954.137 

10 436.859 545.409 395.663 874.889 

11 600.143 572.296 522.289 1 250.051 

12 434.315 392.148 190.942 736.901 

13 409.003 424.557 234.945 794.653 

14 298.749 334.747 143.007 764.274 

15 618.826 671.978 731.723 1 318.376 

16 1989 = 601.612 738.056 662.633 988.181 

17 1990 - 393.349 437.495 253.685 791.806 

18 1991 - 177.277 257.679 137.659 751.560 

z 19 1992 - 612.984 432.906 162.104 843.562 
o 20 1993 = 414.408 504.291 375.818 1 096.850 
E 21 1994 - 153.414 230.450 73.578 657.381 
Sn Máximo 1 345.812 872.190 800.585 1312.09 2 438.163 
ES Mínimo 627.775 153.414 230.450 73.578 657.381 
le X 1 009.399 519.055 489.274 404.564 1077.14 
£ Ss 229.553 202.140 154.990 257.809 369.465 
ne Cv 0.227 0.389 0.317 0.637 0.343 
? Cs 0.509 0.040 0.179 1.447 1.953 
s Ck 2) 2.141 2.240 6.014 7.703 
¡ Ta 0.196 0.216 -0.103 0.229 0.175 
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Cuadro 3. Resultados del diagnóstico de multicolinealidad para los datos del Alto Río Grijalva. 


Indicadores e ota 
X, sl a X, 

VIF, 2.17536 6.30487 10.40554 6.14789 
y 3.11744 0.67478 0.14690 0.06089 
e =Mo ld 1.000 4.620 21.222 51.198 

Regresores Eigenvectores 
X, 0.4096 0.8201 0.3946 0.0629 
2 0.5377 0.1170 0.7395 0.3877 
X, 0.5380 0.2964 0.0679 0.7862 
Ex 0.5036 0.4753 0.5411 0.4771 

X, = 0.4931-X, +0.6068-X, (21) registro histórico en la estación hidrométrica 


la ecuación anterior establece la relación 
aproximada entre X, con X, y X,. 


Cálculo y análisis de la traza Ridge 


La aplicación de la ecuación (18), con base en 
un programa de cómputo elaborado ex professo, 
el cual utiliza los valores de k indicados en el 
cuadro 4, condujo a los coeficientes de regre- 
sión tipo Ridge ahí concentrados, cuyos coefi- 
cientes de determinación (R?) correspondientes 
también se muestran en este cuadro. El cálculo 
de R? se realizó haciendo el centrado de los 
datos y utilizando un COR = 500. A partir de 
los resultados del cuadro 4 se ha construido la 
traza Ridge, mostrada en la figura 2. 

El estudio de la traza Ridge muestra que 
sólo el coeficiente de regresión de la variable 
X,, es decir, de la estación hidrométrica La 
Escalera es estable; en cambio, los relativos a 
las estaciones Las Flores II (X,) y Santa María 
(X,) varían bastante y de manera similar; por 
último, el de El Boquerón II (X,) fluctúa menos, 
pero incluso cambia de signo. Con el objeto de 
establecer el menor valor para el parámetro de 
sesgo (k), se acepta que en la traza Ridge sus 
coeficientes ya están estables en 0.25 y más 
apropiadamente en 0.35. 


Estimaciones Ridge y su contraste 


En el cuadro 5 se exponen las 18 estimaciones 
de la variable dependiente 09) esto es, el 


Santa Isabel en el periodo 1956-1973, así como 
sus residuos correspondientes, realizadas con 
las regresiones Ridge, que emplean k = 0.250 y 
0.350. Los coeficientes de regresión respectivos 
se muestran en el cuadro 6 y fueron obtenidos 
con datos centrados y usando un COR de 500. 

En el cuadro 6 se han concentrado los 
resultados del contraste entre los residuos 
de los dos mejores modelos de regresión 
obtenidos a través de selección de variables 
predictivas (Campos, 2012) y las regresiones 
Ridge adoptadas. Se observa que la regresión 
Ridge origina valores ligeramente mayores de 
los residuos negativos y escasamente menores 
de los residuos positivos; la suma de residuos 
al cuadrado es mayor, pues no es el mejor 
ajuste a los datos, pero la suma algebraica de 
sus errores es menor. 


Estimaciones Ridge adoptadas 


Finalmente, en el cuadro 7 se presentan los 
21 volúmenes escurridos anuales estimados 
en la estación hidrométrica Santa Isabel 
para el periodo de 1974 a 1994, mediante las 
regresiones Ridge adoptadas, así como sus 
respectivos parámetros estadísticos. 

En la figura 3 se muestra la comparación 
entre la segunda serie de volúmenes escurri- 
dos anuales estimados con regresión Ridge y 
los valores adoptados bajo el planteamiento 
de selección de variables predictivas (Campos, 
2012). Se observa que ambas series estimadas 
de volúmenes escurridos anuales presentan el 
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Cuadro 4. Coeficientes de regresión tipo Ridge ($) obtenidos para los valores del parámetro de sesgo indicado. 


Valores del parámetro de sesgo (k) 


Pr 0.000 0.005 0.010 0.020 0.030 0.040 0.050 0.075 
PB, 0.5596 0.5533 0.5476 0.5378 0.5294 0.5219 05152 0.5003 
B, -0.0562 -0.0266 -0.0018 0.0376 0.0671 0.0898 0.1077 0.1386 
PB, 1.0045 0.9334 0.8724 0.7731 0.6958 0.6340 0.5835 0.4903 
B, -0.7363 -0.6878 -0.6457 -0.5760 -0.5204 -0.4749 -0.4369 -0.3638 
E 0.6892 0.6891 0.6890 0.6885 0.6878 0.6870 0.6861 0.6834 
Ñ Valores del parámetro de sesgo (k) 
Br 0.100 0.120 0.150 0.180 0.200 0.250 0.300 0.350 
PB, 0.4873 0.4778 0.4646 0.4523 0.4446 0.4267 0.4105 0.3963 
P, 0.1576 0.1678 0.1781 0.1845 0.1874 0.1915 0.1930 0.1929 
B, 0.4267 0.3887 0.3457 0.3138 0.2968 0.2641 0.2409 0.2236 
PB, -0.3110 -0.2781 -0.2388 -0,2079 -0.1907 -0.1560 -0.1294 -0.1084 
R? 0.6805 0.6782 0.6746 0.6711 0.6689 0.6633 0.6580 0.6530 


2 0.05 0.10 0.15 0.20 0.25 0.30 0.35 
-0.10 Parámetro de sesgo (k) 


Valores de los coeficientes de regresión Ridge ($ R), adimensionales 


gua, vol. V, núm. 4, julio-agosto de 2014 
=) 
2D 
>) 


Figura 2. Traza Ridge para los datos del Alto Río Grijalva. 
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Cuadro 5. Estimaciones (Mm?) de la variable dependiente (Y,) obtenidas con las regresiones Ridge y sus residuos 


correspondientes. 
Año k= 0.250 Residuo k =0.350 Residuo 
1956 1 025.148 87.971 1 027.709 85.410 
1957 730.486 116.471 740.300 106.657 
1958 1 108.431 25.963 1 106.384 28.010 
1059 913.045 -164.907 917222 -169.084 
1960 1 136.477 123.095 1 132.984 126.588 
1961 866.418 10.466 871.102 5.782 
1962 1 214.719 131.093 1194.033 151.779 
1963 1 167.052 -15.504 1 155.790 -4.242 
1964 1 146.003 -42.618 1 140.809 -37.424 
1965 961.314 266.444 961.738 266.020 
1966 949.722 -277.960 958.822 -287.060 
1967 783.116 -153.752 784.173 -154.809 
1968 805.278 57.771 811.278 51.771 
1969 1 225.672 -153.990 1 222.444 -150.763 
1970 1 099.002 83.932 1 101.088 81.846 
1971 1 140.574 -9,344 IMS399 -8.109 
1972 734.440 -106.665 740.087 -112.312 
173 1 162.270 21.542 1 163.875 10357 
Máximo 1 225.672 266.444 1 222.444 266.020 
Mínimo 730.486 -277.960 730.300 -287.060 


Cuadro 6. Indicadores de los residuos obtenidos con los mejores modelos de mínimos cuadrados y con la regresión Ridge. 


Coeficientes de regresión Valores de los residuos 
Modelo analizado 18 E 
B, B, B, B, B, | Mínimo | Máximo |), e 
i=1 i=l 
Y =fX, X, X,) 648.9886 0.6939 =- 1.0636 | -0.4884 | -225.249 269.998 0.298 | 278 905.4 


Y =AX, X, Xy X,) 657.9566 0.7188 | -0.0818 1.1091 | -0.4903 | -220.896 267.891 0.347 | 278 457.1 


Ridge con k = 0.250 1.128022 0.61220 | 0.20869 | 0.58922 | -0.27422 | -277.960 266.444 0.006 | 301 594.6 


Ridge con k= 0.350 1.111032 0.58847 | 0.23013 | 0.51196 | -0.23256 | -287.060 | 266.020 -0.003 | 310 879.8 


mismo comportamiento, pero la procedente de Conclusiones 


la regresión Ridge es mayor y con los valores 0 . Dd . 
5 8 cd La regresión Ridge es un procedimiento di- 


recto, de fácil implementación dentro de la 
solución de mínimos cuadrados de los residuos 
(ecuaciones (5) y (18)) y la interpretación y 
uso de la traza Ridge no presenta ninguna 


máximos más pequeños, lo cual origina un 
valor medio (X = 862.3 Mm?) y un coeficiente 
de variación (Cv = 0.223) más parecidos a 
los de los datos históricos de Santa Isabel 


(X=1 009.4 Mm' y Cv = 0.227), en comparación dificultad. 
con los obtenidos mediante selección de En relación con los problemas de ajuste que 
regresores (X= 831.1 Mm? y Cv = 0.293). origina la multicolinealidad, existe consenso 
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Cuadro 7. Volúmenes escurridos anuales (Mm?) estimados en la estación Santa Isabel mediante la regresión Ridge. 


Año k= 0.250 k=0.350 Año k=0.250 k=0.350 
1974 757.946 767.132 1988 1152.709 1 142.331 
1975 704.198 720.120 1989 1.205.796 1 188.828 
1976 598.509 616.445 1990 828.465 833.405 
1977 645.525 658.206 1991 601.333 614.829 
1978 926.913 938.268 1992 893.815 902.676 
1979 696.028 710.956 1993 843.611 852.755 
1980 1 145.583 1 135.113 1994 596.110 583.616 
1981 1 206.035 1 205.375 Máx 1.206.035 1 205.375 
1982 912.337 922.659 Mín 569.110 583.616 
1983 938.495 937.210 E 856.160 862.282 
1984 1 015.802 1 017.064 S 200.618 192.259 
1985 822.168 827.724 Co 0.234 0.223 
1986 823.526 829.383 Cs 0.420 0.396 
1987 691.446 703.830 Ck 2.580 2.566 
1.400 
1300 
1200 
g 1100 
Sm 
8 
23 1000 
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35 900 
SY 
5.5 800 
5% 
9 700 
600 
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Años del registro transportado 


Figura 3. Contraste de estimaciones en la estación hidrométrica Santa Isabel del Alto Río Grijalva. 


para recomendar que es mejor usar algo de la 
información estadística de todos los regresores, 
como lo hace la regresión Ridge, que emplear 
toda la información de algunos regresores 
y nada de otros, como actúa el método de 
selección de variables predictivas. 

Respecto a la aplicación numérica descri- 
ta, problema previamente abordado con eli- 


minación de variables, los resultados de la 
regresión Ridge son bastante semejantes (ver 
figura 3), pero más apegados a los parámetros 
estadísticos históricos de la estación Santa 
Isabel (cuadro 2). 

Finalmente, en problemas con seis o siete 
registros amplios disponibles, caso común 
al transportar registros de lluvia anual, la 
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regresión Ridge será una mejor opción que 
la inspección de 64 o 128 posibles modelos 
obtenidos por mínimos cuadrados de los 
residuos, como lo establece el esquema de 
eliminación de variables predictivas. 
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